适用于Windows软件开发人员的PDF Extractor SDK:PDF到文本,PDF到XML,PDF图像,阅读PDF信息,PDF到CSV for Excel。
Bytescout PDF Extractor SDK允许将PDF转换为文本,PDF转换为XML,PDF转换为CSV,从PDF中提取图像,在.NET和ActiveX界面中提取有关PDF文件的信息,而无需任何其他软件。
优点:
将PDF转换为纯文本(如果您转换PDF格式的报纸,可以按照列进行操作) - 包括隐形文本提取;
通过读取给定矩形的单元格将PDF格式的表格转换为Excel(CSV);
将PDF中的表格转换为XML文件;
提取PDF文件元数据(标题,作者,描述)并获取有关该文件的其他信息(页数,加密与否);
从PDF文档中提取嵌入的图像(在ASP.NET,VB.NET,C#,VB6和VBScript中);
DocumentMerger和DocumentSplitter接口和类,用于合并和拆分PDF文档;
不需要安装Adobe Reader或任何其他PDF阅读器软件;
提供.NET和ActiveX接口;
使用100%托管的C#代码制作。
此版本中的新功能:
版本9.0.0.3079:按字体名称,字体大小和颜色添加了对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。
8.7.0.2980版中的新功能:
按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.6.0.2911版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。
什么是新的:
按字体名称,字体大小和颜色添加对提取内容的过滤。
将OCR引擎更新到最新版本。从'tessdata'文件夹更新语言文件。
在8.2.0.2699版本中改进了文本提取,表格数据中的行分组,性能,XFA表单提取,TableDetector,修复的PDF解析问题。
什么是新:
版本8.2.0.2699可能包含未指定的更新,增强功能或错误修复。
8.0.0.2528版中的新功能:
新功能:
版本7.0.0.2474:
- 添加了新的DocumentPrinter实用程序类,允许以静默方式打印PDF文档(无需任何用户对话框)
- 添加了新的JSONExtractor类
- 为DocumentSplitter.Split()方法添加了覆盖,允许为生成的文件指定输出文件夹
- 修复了DocumentSplitter中的多线程错误
- tableDetector现在尊重由SetExtractionArea()方法设置的提取区域
- 提取类中的新属性:ExtractionColumns - 包含检测到的列的坐标; CustomExtractionColumns - 允许覆盖列检测
- GetPageRect *方法没有考虑页面轮换。
修复了安装程序中导致以前安装的某些文件干扰更新的问题 - 重新进行了注册检查。现在库不会抛出异常,但如果您错过了或输入错误的RegistrationName和RegistrationKey,则在演示模式下工作
- PDF Multitool:将最近的文档列表添加到“打开PDF文档”按钮
- PDF Multitool:现在可以调整选择大小
- PDF Multitool:添加了提取JSON功能
- PDF Multitool:改进的表检测器UI
- PDF Multitool:大大提高了字体渲染质量
- PDF Multitool:在上下文菜单中添加了调试选项“显示检测到的提取列”,以在当前页面上显示检测到的列。仅在对当前显示的页面运行任何提取后变为可见
- PDF Multitool:修复了32位Windows上的字体渲染问题
- 其他小改进和错误修复
版本6.30.0.2421中的新功能:
版本6.30.0.2421:
- 添加了TextComparer实用程序类(仅适用于.NET 4.0程序集),允许比较两个PDF文档中的文本并生成报告。
- 改进了对ICC颜色配置文件的支持。
- 对嵌入字体的处理不力。
- 改进了AttachmentExtractor。
- 修正了XMLExtractor.SaveXMLToStream()方法。
- 修复了使用OCRCacheMode.WholePage选项时提取的文本复制。
- 其他错误修复和改进。
版本6.20.2354中的新功能:
版本6.20.2354:
- PDF到文本,PDF到CSV,PDF到XML功能改进
- 新提取视频,提取音频示例
- CSV和XML提取器改进了对 中空列的表的支持
- 用于从PDF中提取视频和音频的新MultimediaExtractor
- 新属性PageDataCaching
- new“MemoryCareProcessingOfHugeFiles”示例
- 在尝试处置已经处理过的页面时修复了空例外
- XLSExtractor:改进字体支持
- SkipInvisibleText现在跳过剪切的文本(不可见)
- 文字输出渲染改进
- XFDF Extractor:添加了对复选框的支持
- 改进了图像输出以支持更多子格式
- 改进了Unicode文本处理
版本6.11.2149中的新功能:
版本6.11.2149:
- 批处理样本已更新,以显示Reset()方法的使用
- 为Pages Extraction添加了C ++源代码示例
- DocumentMerger添加Merge2(inputfile1,inputfile2,outputfile)方法来合并2个文件
- XLS Extractor小错误修复程序
- PDF Multitool现在允许启用/禁用文本,图像,矢量图层,添加文本提取的高级设置
- XML,CSV,表格提取改进了对列中具有emtpry单元格的表的支持
- .ExtractShadowLikeText属性改进:更好地过滤类似阴影的文本
版本6.10.2136中的新功能:
版本6.10.2136:
- PDF到XML,PDF到CSV,PDF到文本功能得到改进
- PDF到XLS命令行示例添加(基于vbscript)
- PDF到HTML SDK添加新的.DetectHyperLinks属性(默认情况下为TRUE)以启用/禁用文本中的自动链接检测
- 新的SearchablePDFMaker(可用于PRO许可证)将PDF转换为可搜索的PDF文件
- 提取器中的新属性:ThinkingFontNames,ConsideFontSizes,TakingFontColors,CFG文件中的ConsideVerticalBorders
- 标题列检测(当AutoAlighHeaderToColumns = true时)得到改进
- .DetectLinesInsteadOfParagraphs替换为新的.LineGroupingMode来控制如何将行合并为段落
- 重要! PDF To XML修复了文本对象的Y坐标不正确的长时间问题(指向左下角而不是左上角)
- .TableXMinIntersectionRequiredInPercents和.TableYMinIntersectionRequiredInPercents属性已添加
- 添加了C ++源代码示例
- XML Extractor修复了PreserveFormatting = true模式中缺少的空列
- 对某些PDF文件中的颜色进行微小修复
- 添加了对多种OCR语言的支持
- PDF Multitool GUI:将复制到剪贴板按钮添加到TXT,CSV,XML和光栅渲染器对话框
- XLSExtractor:添加PageToWorksheet属性以启用/禁用每页生成单独的工作表
- new .TextEncodingCodePage属性
- PDFViewerControl:添加ValidateContextMenu,允许用户将自定义项添加到上下文菜单
- PDF查看器控件:添加属性ShowTextObjects,ShowImageObjects,ShowVectorObjects
- XMLExtractor现在为已识别的文本添加“OCRConfidence”属性
- PDF / A检查功能(测试版)
- 根据原始布局改进控件和文本检查和对齐。问题是由解析时控件中Y坐标的移位引起的:这是不正确的。正确的方法是shif ...
- XML Extractor已更新:现在为复选框和文本字段生成CONTROL标记
- 将当前目录更改为临时目录
- 更好地支持复选框,radioboxes,editboxes,comboboxes
- 现在允许部分信任呼叫者
版本5.80.1781中的新功能:
版本5.80.1781:
- PDF到XML,PDF到CSV,PDF到文本功能已更新
- OCRMode现在提供9种模式
- .DetectLineInsteadOfParagraph现在效果更好。将其设置为False以捕获表格单元格中的多行文本!
- PDF控件支持改进
- FDF和XFDF数据提取
版本5.10.1747中的新功能:
版本5.10.1747:
- PDF到XML,PDF到CSV,PDF到文本功能得到改进
- 现在支持从文本控件中提取文本
- XML提取器现在将字体样式,大小,名称,文本坐标添加到标记中
- 添加了用于OCR使用的ASP.NET示例
- 新属性OCRLanguageDataFolder指定“tessdata”文件夹的位置
- 改进了对PDF文件的支持
- 改进了对旋转文本的支持
- 更新了源代码示例
- 更新了文档
- 小改进和修复
版本5.00.1626中的新功能:
版本5.00.1626:
- 添加了OCR(图像中的文本)功能:现在您可以从嵌入的图像中提取文本并修复损坏的文本
- 使用CSV和XML提取程序修复的问题在某些设置中缺少最后一列
- 改进了对损坏的PDF文件的支持
- 现在支持使用单词匹配模式的多行搜索文本搜索
- 现在可以使用连字符和不同的行搜索文本:查看新的源代码示例查找带连字符的文本
- 新属性.RTLTextAutoDetectionEnabled(默认为false)自动检测RTL语言
- 改进了PDF Viewer GUI演示
- 小改进和修复
要求:
.NET Framework 2.0或更高版本
限制:
Nag屏幕,输出水印
评论没有发现